Achieving accurate and automated tumor segmentation plays an important role in both clinical practice and radiomics research. Segmentation in medicine is now often performed manually by experts, which is a laborious, expensive and error-prone task. Manual annotation relies heavily on the experience and knowledge of these experts. In addition, there is much intra- and interobserver variation. Therefore, it is of great significance to develop a method that can automatically segment tumor target regions. In this paper, we propose a deep learning segmentation method based on multimodal positron emission tomography-computed tomography (PET-CT), which combines the high sensitivity of PET and the precise anatomical information of CT. We design an improved spatial attention network(ISA-Net) to increase the accuracy of PET or CT in detecting tumors, which uses multi-scale convolution operation to extract feature information and can highlight the tumor region location information and suppress the non-tumor region location information. In addition, our network uses dual-channel inputs in the coding stage and fuses them in the decoding stage, which can take advantage of the differences and complementarities between PET and CT. We validated the proposed ISA-Net method on two clinical datasets, a soft tissue sarcoma(STS) and a head and neck tumor(HECKTOR) dataset, and compared with other attention methods for tumor segmentation. The DSC score of 0.8378 on STS dataset and 0.8076 on HECKTOR dataset show that ISA-Net method achieves better segmentation performance and has better generalization. Conclusions: The method proposed in this paper is based on multi-modal medical image tumor segmentation, which can effectively utilize the difference and complementarity of different modes. The method can also be applied to other multi-modal data or single-modal data by proper adjustment.
translated by 谷歌翻译
有效的缩放和灵活的任务接口使大型语言模型能够在许多任务中表现出色。帕利(Pali)根据视觉和文本输入生成文本,并使用该界面以许多语言执行许多视觉,语言和多模式任务。为了训练帕利,我们利用了大型的编码器语言模型和视觉变压器(VITS)。这使我们能够利用其现有能力,并利用培训它们的大量成本。我们发现,视觉和语言组成部分的联合缩放很重要。由于现有的语言变压器比其视觉对应物要大得多,因此我们训练迄今为止最大的VIT(VIT-E),以量化甚至大容量视觉模型的好处。为了训练Pali,我们基于一个新的图像文本训练集,其中包含10B图像和文本,以100多种语言来创建大型的多语言组合。帕利(Pali)在多个视觉和语言任务(例如字幕,视觉问题,索方式,场景文本理解)中实现了最新的,同时保留了简单,模块化和可扩展的设计。
translated by 谷歌翻译
近年来,卷积神经网络(CNN)在合成孔径雷达(SAR)目标识别方面表现出巨大的潜力。 SAR图像具有强烈的粒度感,并且具有不同的纹理特征,例如斑点噪声,目标优势散射器和目标轮廓,这些轮廓很少在传统的CNN模型中被考虑。本文提出了两个残留块,即具有多尺度接收场(RFS)的EMC2A块,基于多型结构,然后设计了有效的同位素体系结构深CNN(DCNN),EMC2A-net。 EMC2A阻止使用不同的扩张速率利用平行的扩张卷积,这可以有效地捕获多尺度上下文特征而不会显着增加计算负担。为了进一步提高多尺度功能融合的效率,本文提出了多尺度特征跨通道注意模块,即EMC2A模块,采用了局部的多尺度特征交互策略,而无需降低维度。该策略通过有效的一维(1D) - 圆形卷积和Sigmoid函数适应每个通道的权重,以指导全球通道明智的关注。 MSTAR数据集上的比较结果表明,EMC2A-NET优于相同类型的现有模型,并且具有相对轻巧的网络结构。消融实验结果表明,仅使用一些参数和适当的跨渠道相互作用,EMC2A模块可显着提高模型的性能。
translated by 谷歌翻译
为了构建人工神经网络,例如生物智能系统,最近的作品将许多任务统一为通才模型,该模型可以使用共享参数处理各种任务,并且没有任何特定于任务的模块。尽管通才模型在各种基准上取得了令人鼓舞的结果,但与任务特殊模型相比,它们在某些任务上具有绩效降解。在这项工作中,我们发现不同任务和方式之间的干扰是这种现象的主要因素。为了减轻这种干扰,我们将条件混合物(条件MOE)引入通才模型。建议在不同级别的条件下采用路由策略来考虑培训/推理成本和概括能力。通过合并提出的条件MOE,最近提出的通才模型Uni-Pectiver可以有效地减轻任务和方式的干扰,并通过迅速调整1%的下游数据,从而在一系列下游任务上实现最新的结果。 。此外,有条件的MOE的引入仍然具有通才模型对新任务(例如视频文本检索和视频标题)进行零摄像推断的概括能力。应发布代码和预培训的通才模型。
translated by 谷歌翻译
将简单的体系结构与大规模预训练相结合已导致图像分类的大量改进。对于对象检测,预训练和缩放方法的确定性不佳,尤其是在长尾和开放式摄影的环境中,训练数据相对较少。在本文中,我们提出了一个强大的配方,用于将图像文本模型转移到开放式对象检测中。我们使用具有最小修改,对比度文本预训练和端到端检测微调的标准视觉变压器体系结构。我们对该设置的缩放属性的分析表明,增加图像级预训练和模型大小在下游检测任务上产生一致的改进。我们提供适应性策略和正规化,以实现零击文本条件和单次图像条件对象检测的非常强劲的性能。代码和型号可在GitHub上找到。
translated by 谷歌翻译
这项工作介绍了一个简单的视觉变压器设计,作为对象本地化和实例分段任务的强大基线。变压器最近在图像分类任务中展示了竞争性能。为了采用对象检测和密集的预测任务,许多作品从卷积网络和高度定制的Vit架构继承了多级设计。在这种设计背后,目标是在计算成本和多尺度全球背景的有效聚合之间进行更好的权衡。然而,现有的作品采用多级架构设计作为黑匣子解决方案,无清楚地了解其真正的益处。在本文中,我们全面研究了三个架构设计选择对vit - 空间减少,加倍的频道和多尺度特征 - 并证明了vanilla vit架构可以在没有手动的多尺度特征的情况下实现这一目标,保持原始的Vit设计哲学。我们进一步完成了缩放规则,以优化模型的准确性和计算成本/型号大小的权衡。通过在整个编码器块中利用恒定的特征分辨率和隐藏大小,我们提出了一种称为通用视觉变压器(UVIT)的简单而紧凑的VIT架构,可实现COCO对象检测和实例分段任务的强劲性能。
translated by 谷歌翻译
现实世界数据通常遵循长尾分布,这使得现有分类算法的性能较大。关键问题是尾类别中的样本未能描绘其级别的多种多样性。人类可以想象在新的姿势,场景和观看角度的样本,即使是第一次看到此类别也是如此。灵感来自于此,我们提出了一种新的基于推理的隐式语义数据增强方法,可以从其他类借用转换方向。由于每个类别的协方差矩阵表示特征转换方向,因此我们可以从类似类别中采样新的方向以产生绝对不同的实例。具体地,首先采用长尾分布式数据来训练骨干和分类器。然后,估计每个类别的协方差矩阵,构建知识图形以存储任何两个类别的关系。最后,通过从知识图中的所有类似类别传播信息,自适应地增强尾样本。 CiFar-100-LT,想象 - LT和Inattations 2018上的实验结果表明了我们所提出的方法的有效性与最先进的方法相比。
translated by 谷歌翻译
动物的生物智能系统通过将信息与各种任务同时整合在不同的方式和处理中的信息。相比之下,当前的机器学习研究遵循一个特定于任务的范例,导致任务与开发新任务的感知模型的高度边际成本之间的负面合作。在本文中,我们展示了一个名为Uni-Perceiver的通用感知体系结构,其处理各种模型和任务,具有统一的建模和共享参数。具体而言,UNI-Perceiver将从任意模态的不同的任务输入和目标进行编码为具有模态 - 不可变换器编码器和轻量级模式特定标记的统一表示空间。不同的感知任务被建模为相同的配方,即通过其表示的相似性找到每个输入的最大可能性目标。该模型在多个单模和多模态任务上预先培训,并在各种下游任务上进行评估,包括在预训练阶段中未出现的新任务。结果表明,我们没有任何调整的预先训练的模型即使在新的任务上也可以实现合理的性能。通过在下游任务数据的1%上进行提示调整,可以将性能提高到接近最先进的方法的水平。全数据微调进一步提供结果与最先进的结果相提并论。代码应释放。
translated by 谷歌翻译
本文提出了一种对比调整,这是一种简单的方法,采用对比训练来对准图像和文本模型,同时仍然利用他们的预训练。在我们的实证研究中,我们发现,锁定的预训练图像模型与解锁文本模型最佳。我们调用这种对比调整“锁定图像文本调整”(LIT TOONING)的实例,该实例仅教导文本模型,从预先训练的图像模型中读出了良好的表示新任务。亮度调谐模型将零拍摄传输到新视觉任务的能力提高,例如图像分类或检索。建议的亮度调整是广泛适用的;它可以使用三种不同的图像文本数据集可靠地使用多种预训练方法(监督和无监督)和多种架构(Reset,Vision变换器和MLP-MILLER)。利用基于变压器的预训练VIT-G / 14型号,LIT调谐模型在想象网测试集中实现了84.5%的零射频传输精度,并且在充满挑战的分发ObjectNet测试集中实现了81.1%。
translated by 谷歌翻译
With the development of a series of Galaxy sky surveys in recent years, the observations increased rapidly, which makes the research of machine learning methods for galaxy image recognition a hot topic. Available automatic galaxy image recognition researches are plagued by the large differences in similarity between categories, the imbalance of data between different classes, and the discrepancy between the discrete representation of Galaxy classes and the essentially gradual changes from one morphological class to the adjacent class (DDRGC). These limitations have motivated several astronomers and machine learning experts to design projects with improved galaxy image recognition capabilities. Therefore, this paper proposes a novel learning method, ``Hierarchical Imbalanced data learning with Weighted sampling and Label smoothing" (HIWL). The HIWL consists of three key techniques respectively dealing with the above-mentioned three problems: (1) Designed a hierarchical galaxy classification model based on an efficient backbone network; (2) Utilized a weighted sampling scheme to deal with the imbalance problem; (3) Adopted a label smoothing technique to alleviate the DDRGC problem. We applied this method to galaxy photometric images from the Galaxy Zoo-The Galaxy Challenge, exploring the recognition of completely round smooth, in between smooth, cigar-shaped, edge-on and spiral. The overall classification accuracy is 96.32\%, and some superiorities of the HIWL are shown based on recall, precision, and F1-Score in comparing with some related works. In addition, we also explored the visualization of the galaxy image features and model attention to understand the foundations of the proposed scheme.
translated by 谷歌翻译